智能论文笔记

Robin Hood and Matthew Effects: Differential Privacy Has Disparate Impact on Synthetic Data

Georgi Ganev , Bristena Oprisanu , Emiliano De Cristofaro

分类：机器学习 | 人工智能

2021-09-23

接受差异隐私（DP）训练的生成模型可用于生成合成数据，同时最大程度地降低隐私风险。我们分析了DP对数据的影响不足的数据/子组的影响，特别是研究：1）合成数据中类/子组的大小和2）分类任务的准确性在其上运行。我们还评估了各种不平衡和隐私预算的影响。我们的分析使用了三种最先进的DP模型（Privbayes，DP-WGAN和PATE-GAN），并表明DP在生成的合成数据中产生相反的大小分布。它影响了多数族裔和少数族裔/亚组之间的差距；在某些情况下，通过减少它（一种“罗宾汉”效应），而在其他情况下则通过增加它（一种“马修”效应）。无论哪种方式，这都会导致（类似）对合成数据的分类任务准确性的（类似）不同的影响，从而更加不成比例地影响了代表性不足的数据。因此，当培训模型对合成数据时，可能会导致不均匀地处理不同亚群的风险，从而得出不可靠或不公平的结论。

translated by 谷歌翻译